连载(12):统计图形艺术——曲线平滑
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
曲线平滑Curve Smooth
LOWESS, 为Locally Weighted regrESSion的缩写,意为局部加权回归,采用局部回归的方法来拟合非线性的趋势,和进行数据的趋势平滑。最早由WilliamS.Cleveland于1979年 [1]提出,后由Cleveland和SusanJ.Devlin进一步完善而成型 [2]。
Turkey等人[3]在调查铅冶炼厂158名工人铅暴露情况时,采用传统方法(atomic absorption spectrophotometry,原子吸收分光光度法)和新方法(原卟啉锌(ZPP)浓度法,ZPP是因铅中毒而释放到血液中的酶)两种方法来测量血铅暴露水平。用LOWESS法探索了两种方法监测结果的一致性 (图 12.1)。结果显示,在血铅浓度较低时,两法的一致性较高;而当血铅浓度较高时,ZPP浓度无法准确反映血铅浓度。
图12.1:两种方法测量135名铅冶炼厂
工人血铅浓度的一致性
LOWESS平滑的核心思想是局部回归加权:以点x为中心,向前后截取一定比例(frac)的数据,以w为权重(非固定数值)进行加权线性回归,该点记为(x, hat{y})。同上,对n个数据点建立n条加权回归线,得到n个数据对,连线即为LOWESS曲线。
具有非线性趋势的散点图的趋势平滑。
非线性拟合。
例: 以R中自带的海狸(beavers)连续监测的体温数据为例(时间/分,体温/摄氏度),拟合连续24小时的体温节律(图 12.2)。
图12.2:海狸昼夜体温节律的
LOWESS曲线拟合
例: 基于某受试者24h动态心电图仪(HOLTER)所获取的连续心率监测数据,绘制不同参数(frac)情况下的LOWESS平滑曲线(图 12.3)。
frac参数的设定将直接影响曲线平滑效果,其值越大,拟合效果越趋近于直线。
本例中,基于校正AIC最小化作为准则,选择最佳的frac参数,绘制的曲线(红色拟合线);直观可见,虽然达AIC最优,但尾部曲线拟合效果欠佳。
周期性的趋势需要拟合多个周期,方可更准确的体现其周期性。或拐点处需要更多的数据点,方可更精确的体现非线性。期待读者提供更密集的时序数据以供展示。
图12.3:心率监测数据
上述案例是用LOWESS拟合个别记录的非线性趋势,亦可用LOWESS来进行两个变量的非线性回归。
例:本例基于96例健康对照(Control)和146例5期慢性肾功能不全患者(CKD 5)的动态心率监测数据,剔除存在缺失值的数据,分别从两组随机抽取15例样本,分别拟合随时间变化的非线性关系,以展示两类人群的心率节律的差异(图 12.4)。
曲线为LOWESS非线性拟合结果(实为条件均数),条带为条件均数之95%可信区间带。
图12.4:健康对照和CKD5患者
之24h心率节律差异
frac参数(即“窗口/window”或“带宽/band”)的设定将直接影响曲线平滑效果。不可过高(将逼近直线趋势,无法体现非线性),亦不可过低(将出现过拟合现象)。frac参数的选择存在一定的主观性。 lowess为loess的前生。传统的lowess是基于线性局部多项式回归算法(linear locally weighted polynormial regression),而loess是基于二次(quarantic)局部多项式回归,非线性拟合更为平滑。另外,loess是基于模型(y ~x1 + x2…)的,更为灵活,可用于多个变量的平滑,即响应面平滑(surface smooth) [3]。 可以通过AIC和交叉验证,来选择最佳参数。参考附件中的“auto_loess()”函数。
参考文献:
Cleveland WS. Robust locally and smoothing weighted regression scatterplots. 1979;
Cleveland WS. LOWESS: A program for smoothing scatterplots by robust locally weighted regression. 1981;35(1):54–4.
Cleveland WS, Grosse E, Shyu WM. Local regression models. In: Chambers JM, Hastie TJ, editors. Statistical models in s. Wadsworth & Brooks/Cole; 1992.
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
连载(7):统计图形艺术——散点图
连载(8):统计图形艺术——热图
连载(9):统计图形艺术——三元图
连载(10):统计图形艺术——QQ图
连载(11):统计图形艺术——概率和统计分析
统计图形艺术——“图形”英文词意辨析